Học tăng cường Hàm

Học tăng cường Hàm_softmax

Trong lĩnh vực của học tăng cường, một hàm softmax có thể được sử dụng để chuyển đổi giá trị thành xác suất. Các hàm thường dùng là:[3]

P t ( a ) = exp ⁡ ( q t ( a ) / τ ) ∑ i = 1 n exp ⁡ ( q t ( i ) / τ ) , {\displaystyle P_{t}(a)={\frac {\exp(q_{t}(a)/\tau )}{\sum _{i=1}^{n}\exp(q_{t}(i)/\tau )}}{\text{,}}}

nơi giá trị của hành động {\displaystyle } tương ứng với hiệu quả mong muốn của hành động a và {\displaystyle } (một sự ám chỉ trong thống kê cơ học). Với nhiệt độ cao ( {\displaystyle } ), tất cả hành động như có cùng một xác suất và với nhiệt độ càng thấp hơn thì sự ảnh hưởng của hiệu quả mong muốn đến xác suất càng cao. Với nhiệt độ thấp ( {\displaystyle } ), xác suất của hành động với hiệu quả mong muốn lớn nhất sẽ có xu hướng tiến tới 1.

Liên quan

Hàm số Hàm số chẵn và lẻ Hàm số bậc hai Hàm số bậc ba Hàm sóng Hàm số đơn điệu Hàm số sơ cấp Hàm sinh mô men Hàm số cơ bản Hàm sinc

Tài liệu tham khảo

WikiPedia: Hàm_softmax http://www.faqs.org/faqs/ai-faq/neural-nets/part2/...